https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn
Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.
Figure 1.1: Distribution du coefficient de variation dans le bloc mirna
Figure 1.2: Distribution du coefficient de variation dans le blocs mrna
Figure 1.3: Distribution du coefficient de variation dans le bloc protéine
On peut voir sur les histogrammes que le type de données possédant le plus de variabilité est le type protéine. En effet, sa variabilité est comprise entre -100 et 250, même si on peut observer qu’elle est comme les autres centrée vers 0.
En supprimant les données les plus variantes (\(\lvert{C_v}\rvert \geq 0.15\)), il ne reste que 142 protéines, 174 gènes et 82 miRNA.
Le gène avec le plus grand coefficient de variance de notre jeu de données est PLCD4. La protéine codée par ce gène peut jouer un rôle dans la croissance et la prolifération cellulaire. Son expression peut donc notamment être un marqueur de cancer. PLCD4 est situé sur le chromosome 2, et sa longueur est de 30749 nucléotides. La protéine correspondant à ce gène est Q9BRC7, d’une longueur de 762 nucléotides, mais n’est pas contenue dans notre jeu de données.
L’ACP est une méthode d’analyse statistique et de réduction des données, permettant de calculer des composantes maximisant la variabilité des données étudiées. On peut ensuite évaluer si les composantes calculées permettent de caractériser correctement la variabilité des données (par exemple s’il est possible de retrouver certains groupes séparés distinctement par les composantes), et d’identifier les variables les plus importantes participant à ces composantes.
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6
## 4601.980533 46.705472 21.519114 12.661752 9.796326 8.634070
## PC7 PC8 PC9 PC10
## 7.445820 6.180146 5.062428 4.265798
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5 PC6
## 0.956078087 0.009703231 0.004470674 0.002630525 0.002035222 0.001793759
## PC7 PC8 PC9 PC10
## 0.001546896 0.001283948 0.001051738 0.000886235
##
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.9560781 0.9657813 0.9702520 0.9728825 0.9749177 0.9767115 0.9782584 0.9795423
## PC9 PC10
## 0.9805941 0.9814803
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
Figure 2.1: Explication de la variabilité par les différentes composantes - avec center & scale false
##
## Call:
## tune.pca(X = mrna.c, ncomp = 50, center = F, scale = F)
##
## for all principal components, see object$sdev, object$explained_variance and object$cum.var
Au vu de l’histogramme:
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 33.720079 23.308702 9.887708 8.601462 7.448849 5.701675 4.198577 3.765421
## PC9 PC10
## 3.265814 3.045500
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## 0.19379356 0.13395806 0.05682591 0.04943369 0.04280948 0.03276825 0.02412975
## PC8 PC9 PC10
## 0.02164035 0.01876904 0.01750288
##
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590
## PC9 PC10
## 0.5741281 0.5916310
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
Figure 2.2: Explication de la variabilité par les différentes composantes - avec center & scale true
Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.
Figure 2.3: Projection des variables (ici les gènes) selon les composantes 1 et 2 d’une ACP
Les dix variables contribuant le plus à l’axe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques représentant les variables sont actuellement très difficilement lisibles, on doit donc afficher les contributions des variables aux composantes à l’aide d’une commande.
Figure 2.4: Projection des individus selon les composantes 1 et 2 d’une ACP
On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.
Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.
Figure 2.5: Projection des gènes principaux selon les composantes 1 et 2 d’une Sparse-PCA
La PLS est une méthode statistique permettant de traiter différentes matrices de données. Contrairement à l’ACP, qui ne peut analyser qu’un jeu de données à la fois, on va ici pouvoir dégager des composantes - dites latentes - maximisant la covariance entre nos deux matrices d’entrée. Sur notre analyse, on va ainsi pouvoir dégager via les composantes les possibles corrélations entre l’expression génique et l’expression protéique.
Figure 2.6: Projection des individus colorés en fonction de leur groupe selon les composantes 2 et 3 d’une PLS
Figure 2.7: Arrow plot des individus colorés en fonction de leur groupe selon les composantes 1 et 3 d’une PLS
Les variables retenues pour la troisième composante sont C1QB, Caspase.7_cleavedD198.
Figure 2.8: Matrice de corrélation entre l’expression des gènes et l’expression des protéines calculée à partir d’une Sparse-PLS
Figure 2.9: Network plot des gènes et protéines les plus corrélés (|p| > 0.65) à partir des résultats d’une SPLS
Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).
Figure 2.10: Résultats d’une block pls sur les protéines, mrna et mirna
Figure 2.11: Résultats d’une block pls sur les protéines, mrna et mirna
Figure 2.12: Résultats d’une block pls sur les protéines, mrna et mirna
Figure 2.13: Résultats d’une block spls sur les protéines, mrna et mirna
Figure 2.14: Résultats d’une block spls sur les protéines, mrna et mirna
Figure 2.15: Résultats d’une block spls sur les protéines, mrna et mirna
Les variables sélectionnées sur la première composante sont:
Figure 2.16: Projection des individus selon les composantes 1 et 2 d’une PLS-DA
Par rapport à la PCA, on peut considérer que la PLS-DA permet de mieux retrouver nos trois groupes d’échantillons sur ce graphique par rapport aux deux premières composantes principales. En effet, les trois groupes sont ici clairement distincts dans l’espace du graphique, et les frontières entre groupes sont bien plus marquées. Il semblerait donc que la variabilité des données calculée par la PLS-DA permet de mieux expliquer les différences génétiques entre les groupes de nos échantillons.
Figure 2.17: Projection des individus selon les composantes 1 et 2 d’une block spls-da réalisée sur les gènes, mirna et protéines
Figure 2.18: Projection des individus selon les composantes 1 et 2 d’une block spls-da réalisée sur les gènes, mirna et protéines après sélection d’un nombre limité de variables pour chaque jeu de données
Figure 2.19: Circosplot des protéines, mirna et mrna avec un cutoff de 0.5
Nous travaillons ici sur les effets de l’exposition à des polluants sur la santé des ours polaires. On a accès pour une vingtaine de trios (une mère et sa portée de deux enfants) à deux types de données omiques:
On choisit de considérer le taux d’exposition au polluant comme une donnée qualitative à trois niveaux, pour diviser nos données sur les ours polaires en trois groupes :
Projection on Latent Structures (PLS)
La PLS va nous permettre de dégager via les composantes latentes calculées les possibles corrélations entre les ARN messagers et les mesures cliniques.
pls.result = pls(X = mrna, Y = clinical_data)
avec:
Cette approche peut nous permettre dans un premier temps d’évaluer la covariance entre nos deux types de données, et d’observer si, sans connaître les groupes de sortie, on peut tout de même retrouver les groupes exposés à de plus ou moins forts taux de pollution. Il est possible pour savoir si ces groupes sont retrouvés de représenter nos individus sur un graphe selon les deux premières composantes calculées par la pls par exemple, et de colorer les individus selon les groupes choisis.
PLS-Discriminant Analysis (PLS-DA)
Étant donné que l’on a choisi de représenter l’exposition au polluant de manière qualitative, il est possible de réaliser une analyse supervisée de nos données via une pls-da pour observer la covariance des données disponibles expliquant au mieux la répartition des trois groupes choisis.
On a donc,
plsda.result = plsda(matrix, Y, ncomp = 2)
avec:
Avec les résultats de cette analyse, nous pouvons comme précédemment projeter les individus sur un graphique à deux dimensions, selon les composantes expliquant la plus grande variabilité, et encore une fois colorer les individus selon les groupes. On pourra ainsi comparer nos deux graphiques et observer si l’un des deux permet de mieux visualiser la séparation entre nos groupes selon la covariance entre données calculée par la méthode. Il est ensuite possible de trouver, à l’intérieur des composantes calculées, quelles sont les variables participant le plus, et donc celles sur lesquelles il est important de se concentrer pour comprendre l’effet de la pollution sur les ours polaires. On pourra ainsi identifier si l’expression de certains arn messagers a été impactée par le niveau de pollution, ou si certaines données cliniques se retrouveraient modifiées (impact significatif sur le poids ou la taille des ours, en prenant évidemment en compte le fait que les ours soient enfants ou adultes).
Approche simple omique
Nous travaillons ici sur des microbiotes de souris ayant subi ou non un traitement. On a accès pour chaque souris à deux types de données omiques : métagénomiques (données 16S du microbiote) et métabolomiques (décompte de molécules du métabolome).
Il peut être intéressant dans ce cas d’effectuer une première approche simple omique, par exemple sur nos données de métagénomique. En effet, sur chacun des deux groupes (traité et non-traité), certaines métriques peuvent être analysés via nos données 16S. On peut ici admettre que l’on a à notre disposition une table d’OTU. À partir de cette table il est possible de calculer les diversité alpha, bêta, ainsi que les tables d’abondance de nos deux échantillons. On peut alors comparer ces résultats pour observer si le microbiote intestinal a été impacté par le traitement et dans quelle mesure. Cependant nous possédons également des données métabolomiques. En approche simple omique, nous pouvons déterminer quels sont les molécules présentes selon une même intensité, et si l’on observe des différences de comptage significative au contact du traitement.
Approche multiomique
Cependant, au vu des outils disponibles, il apparaît nécessaire et très informatif d’effectuer également une analyse multiomique. Les différentes informations apportées par les analyses simple-omiques nous permettent de mettre en lumière les différences entre les groupes de souris, mais il pourrait être intéressant dans un second temps d’évaluer la covariance de ces données. En effet, les données métagénomiques nous permettent de connaître la composition du microbiote des souris en termes de micro-organisme, et les données métabolomiques donnent une analyse sur la composition des molécules métaboliques du milieu intestinal probablement.
Pour déterminer plus précisément les impacts du traitement sur le milieu intestinal, il est donc nécessaire d’utiliser l’outil de “Projection on Latent Structure”. On va ainsi pouvoir trouver les composantes maximisant la covariance entre métagénomique et métabolomique. On peut ainsi effectuer une sparse PLS sur les souris traitées d’un côté et non traitées de l’autre. Un cim plot pourra ainsi être utilisé pour visualiser la variance entre nos différentes variables, ainsi qu’un network plot pour représenter les 16S et les métabolites les plus corrélés. Ces deux représentations graphiques peuvent être utilisées pour les souris traitées et non traitées, pour ensuite comparer nos deux résultats, et ainsi évaluer si le traitement a une influence sur la covariance entre les données omiques.